[論文筆記] Seeing Out of tHe bOx - End-to-End Pre-training for Vision-Language Representation Learning


Posted by Ivan Fang on 2021-06-30

Paper Information

Introduction

  • 自從 BUTD [1] 提出後,大部分的 V+L(Visual and Language)model 都採用 object detector 來抽取圖片特徵,然而這種 region-based 的方法卻存在三大缺點:
    • 這些特徵只關注 bbox 裡的資訊,bbox 外的則容易被忽略。
    • 這些特徵會受到 pre-defined categories 的限制。
    • 受 object detector 的影響,這些特徵會有 low quality、noise、oversampling、rely on large-scale boxes annotation data 等問題。
  • 好在 Facebook 於 2019 提出了 GridFeats [2],拋棄 object detector 的曙光才得以到來。除了緩解上述問題外,由於不再需要 object detector,也得以讓 V+L 回歸 E2E(End-to-End)。本文所提出的方法 SOHO(Seeing Out of tHe bOx)就是其中一個 E2E 模型。
  • pre-training 的部分,除了常用的 MLM(Mask Language Modeling)、ITM(Image Text Matching)外,作者還提出了一個叫 MVM(Mask Visual Modeling)的方法。
  • 本文貢獻:E2E、MVM。

Methods

Pre-training

  • SOHO 的 pre-training 架構如 Figure 2 所示。
    • text 的部分參照 BERT 的做法做 embedding。
    • image 的部分先經過 resnet-101(trainable visual encoder)後,丟到作者提出的 vd-based embedding(vd:visual dictionary)。
    • 最後將 text embedding、vd-based embedding 丟到 VL-BERT [3](cross modal transformer)做整合,完成 pre-training。
  • pre-training 任務總共有三:MLM、ITM 以及作者提出的 MVM。
    • MLM、ITM 就跟其他人的做法一樣,沒什麼好講的,這裡只介紹 MVM。
  • MVM
    • 對於 resnet-101 的輸出,$v_i$,找出 vd 中與之最相近的向量,$d_{h_i}$。
    • 則 $d_{h_i}$ 為 $v_i$ 的 vd-based embedding;$d_{h_i}$ 的編號 $h_i$ 為 $v_i$ 的 label。
      $$
      h_i = \arg\min_{j} ||v_i - d_j||_{2} \
      f(v_i) = d_{h_i}
      $$
      • $d_j$:vd 中的向量。
      • $f$:vd mapping。
    • $d_j$ 是會隨時間更新的,更新方式如下:
      $$
      \hat d_{j} = \gamma * d_{j} + (1 - \gamma) * \frac{\sum_{h_i = j} v_i}{|f^{-1}(j)|}
      $$
      • $\gamma \in [0, 1]$
      • $|f^{-1}(j)|$:inverse mapping group size,也就是選到同一個 $d_j$ 的 $v_i$ 的個數。
    • MVM 的作法與 MLM 類似,就是隨機蓋掉一些 vd-based embedding,然後模型要去預測這些被蓋掉的特徵的 label。
      $$
      L_{MVM} = -E_{(W, f(V)) \sim D} \log p(h_i | W, f(V)_{\backslash j})
      $$
      • $L_{MVM}$:MVM loss
      • $D$:dataset
      • $W$:word embedding
      • $f(V)_{\backslash j}$:沒被蓋掉的 vd-based embedding
  • 在做 pre-train 時,1 張 image 會被分配到 4 個 sentence,其中 2 句是 positive pair,另外 2 句是 negative pair。只有在 positive pair 上才會做 MLM 跟 MVM。

Fine-tuning

  • 作者將 SOHO fine-tune 到 4 種任務上:TR/IR、VQA、NLVR、VE。
    • TR/IR:image-to-text retrieval、text-to-image retrieval
    • VQA:visual question answering
    • NLVR:natural language for visual reasoning
    • VE:visual entailment
  • 但目前(2021/6/29)只釋出 VQA 的 code 而已,其他都還沒。

Experiments & Results

Dataset

  • pre-training dataset 與 fine-tune dataset 如 Table 1 所示。
  • 值得注意的是,跟其他 2020 年 V+L 模型比起來 SOHO 的 pre-train dataset 已經算小了。只用 MSCOCO 跟 VG 而已。

Downstream Tasks and Results

  • 在處理 downstream task 時,作者發現使用 visual representation(resnet-101 output,$v$)的效果會比 vd-embedding($d$)好。因此後續的實驗都是使用 visual representation。
  • TR/IR、VQA、NLVR、VE 的結果如 Table 2 ~ 6 所示。

  • VQA 的部分(Table 4),即使在 pre-train dataset 比較少的情況下,SOHO 的效能一就可以比架構類似的 UNITER [4] 好個 0.5,可見 E2E、MVM 的功效還是粉不錯的。
    • UNITER 的 pre-train dataset:MSCOCO + VG + CC + SBU。

Ablation Study

  • 為了驗證 vd 的貢獻,作者對其它做了 ablation study,結果如 Table 7 所示。
  • 可以看到 vd 的加入確實是能提升效能的。並且作者還發現 vd size($d_j$ 的維度)落在 2048 或 4096 時效果最好。
    • vd size 大一點可以學到更 fine-grained 的資訊,但太大反而會讓模型喪失總結能力(abstraction)。

References

[1] Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
[2] In Defense of Grid Features for Visual Question Answering
[3] VL-BERT: Pre-training of Generic Visual-Linguistic Representations
[4] UNITER: UNiversal Image-TExt Representation Learning


#VLP #E2E #MVM







Related Posts

該如何入門 CTF 中的 Web 題?

該如何入門 CTF 中的 Web 題?

Typescript express 打造Twitter專案 Part1

Typescript express 打造Twitter專案 Part1

5. 實際開發 ToDo List 案例

5. 實際開發 ToDo List 案例


Comments